メインコンテンツまでスキップ

精度信頼性メトリクス

汎用データサイエンスから eFabric™ エコシステムへの移行には、システムレベルの信頼性へのシフトが必要です。「Always-On」環境では、モデルの価値は静的なテストセットでの性能ではなく、Syntiant® NDPの厳格なエネルギーとメモリの制約内で動作しながら高い忠実度を維持する能力によって判断されます。

理論的精度と実世界での有用性のギャップを埋めるために、エッジノードの運用的整合性を優先する階層的メトリクスシステムを使用します。

エッジ信頼性の階層

従来の精度はベースラインを提供しますが、エッジでの推論の物理的結果を反映するメトリクスを通じてTML120の性能を評価します:

  • 精度と再現率: 単一の精度パーセンテージではなく、再現率(すべての真のイベントを見つける能力)と精度(トリガーが実際にターゲットイベントであることを確保する能力)に焦点を当てます。

  • F1スコア: 機械的な故障などのターゲットイベントが稀な実世界の「不均衡な」性質を考慮して、F1スコアは単純に「イベントなし」と予測することでモデルが成功しているように見えることを防ぐ調和平均を提供します。

  • 混同行列分析: すべての推論をeFabric™ フレームワークの4象限**(TP、TN、FP、FN)**にマッピングして、モデルがどこで苦労しているかを視覚化します—ノイズに「過敏」なのか、さまざまなイベントシグネチャに「感度不足」なのかを確認します。

量子化忠実度

NDPは8ビット整数ロジックで動作するため、高精度モデルが圧縮される際に発生する数学的「ドリフト」を考慮する必要があります。これを通じて測定します

精度低下 (ΔAcc\Delta Acc):

数式:精度低下 (ΔAcc\Delta Acc):

ΔAcc=AccfloatAccquant\Delta Acc = Acc_{float} - Acc_{quant}

成功したeFabric™の実装は通常 < 1%を目標とし、電力節約がシステム信頼性を犠牲にしないようにします。


偽受理(FAR)と偽拒否(FRR)の理解

Always-OnエッジAIでは、信頼性は2つの競合するエラータイプのバランスによって定義されます。これらのメトリクスはeFabric™ ハードウェアを調整するための「北極星」であり、バッテリー寿命とデバイスに対するユーザーの信頼に直接影響します。

A. 偽受理率(FAR)

偽受理(偽陽性とも呼ばれる)は、モデルがバックグラウンドノイズ、非ターゲット振動、または無関係な動きを「マッチ」として誤って識別した場合に発生します。

  • 技術的原因: 入力データのスペクトルまたは時間的特徴がターゲットクラスに十分近く、プログラムされた信頼度閾値を超えます。

  • システムへの影響: すべての偽受理はNDPの割り込みピン(IRQ)をトリガーし、高電力ホストコントローラーをディープスリープから起こして非イベントを処理させます。

  • 結果: 高いFARは**「バッテリー出血」**とエンドユーザーの通知疲れにつながります。

B. 偽拒否率(FRR)

偽拒否(偽陰性とも呼ばれる)は、特定のウェイクワードや重大な機械的故障などの本物のターゲットイベントが発生しても、モデルがトリガーに失敗した場合に発生します。

  • 技術的原因: 極端なバックグラウンドノイズ(低信号対雑音比)やイベント信号の変動(例:異なるアクセントやくぐもった音)などの環境要因により、信頼度スコアが閾値を下回ります。

  • システムへの影響: デバイスは監視するように設計されたイベントに対して「盲目」または「聴覚障害」のままになります。

  • 結果: 高いFRRは**「ユーザー摩擦」**につながり、製品が壊れているか反応しないと認識されます。

C. 数学的綱引き FARとFRRは逆の関係にあります。すべての可能なイベントを捕捉するためにモデルをより「敏感」にすると(FRRを下げる)、必然的に誤検知の数が増加します(FARが上がる)。

このトレードオフを視覚化するために、検出エラートレードオフ(DET)曲線を使用します。eFabric™ エンジニアの目標は、2つのエラー率が同一である**等エラー率(EER)**を見つけることです。

等エラー率(EER):

EER={xFAR(x)=FRR(x)}EER = \{ x \mid FAR(x) = FRR(x) \}

偽受理率(FAR)計算:

FAR=FPFP+TNFAR = \frac{FP}{FP + TN}

偽拒否率(FRR)計算:

FRR=FNFN+TPFRR = \frac{FN}{FN + TP}

eFabric™ フレームワーク内の定義:

用語正式名称エッジAIにおける説明
FP偽陽性

「誤報」。 NDPがターゲットイベントを聞いたと思ってホストを誤ってトリガーしましたが、実際はノイズでした。

TN真陰性

「サイレント成功」。 NDPがターゲットイベントが発生していないことを正しく識別し、低電力状態に留まっています。

TP真陽性

「クリーンキャッチ」。 NDPがターゲットイベントを正しく識別し、ホストコントローラーを正常に起動しました。

FN偽陰性

「見逃したイベント」。 ターゲットイベントが発生しましたが、NDPがそれを認識できず、システムは反応しません。

🚀ユースケースに合わせた調整

「正しいバランスはアプリケーションに完全に依存します。煙感知器の場合、わずかに高いFARを意味しても、ほぼゼロのFRRを優先すべきです(火事を絶対に見逃してはなりません)。逆に、スマートウォッチのウェイクワードの場合、ユーザーがときにコマンドを繰り返す必要があっても、小さなバッテリーを保護するために低いFARを優先するかもしれません。」


混同行列:モデル結果の解釈

「90%精度」のような統計的サマリーは高レベルのレポートに有用ですが、モデル障害の特定のニュアンスを隠してしまいます。混同行列は、eFabric™ エコシステム内でモデルがどこでなぜ苦労しているかをデコードするために使用されるプライマリ診断ツールです。以前に定義した4つの決定状態(TP、FP、TN、FN)の視覚的・数学的な内訳を提供します。

A. 行列の診断価値

「実際の」クラスと「予測された」クラスをマッピングすることで、混同行列はエンジニアが特定のクラス間混同を識別できます。

  • 対称目標: 完璧なモデルでは、すべての値が真陽性と真陰性を表す主対角線(左上から右下)上にあります。

  • エラー分析: 「非対角」セルの値は特定の弱点を強調します。例えば、「叫び声」を検出するNDPを訓練していて、行列が「口笛」の偽陽性が多いことを示している場合、モデルの境界を洗練するためにネガティブデータセット(セクション4.0)にどの音を含めるかを正確に把握できます。

B. エッジAIの派生メトリクス

混同行列の生カウントから、モデルの「インテリジェンス」品質を定義する2つの重要なパーセンテージを導出します:

1. 精度(量より質)

精度はこの質問に答えます:「デバイスが起動したすべての時間のうち、どれだけ正しかったか?」

  • 焦点: **偽陽性(FP)**の最小化。

  • アプリケーション: 高精度モデルは、すべての起動にコストがかかるデバイス(例:衛星リンクされたリモートセンサー)に不可欠です。

Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}

2. 再現率 / 感度(カバレッジ) 再現率はこの質問に答えます:「実際に発生したすべての実世界イベントのうち、いくつを正常に捕捉したか?」

  • 焦点: **偽陰性(FN)**の最小化。

  • アプリケーション: 高い再現率モデルは、単一のイベントを見逃すことが壊滅的な安全アプリケーション(例:心拍数異常検出器)にとって重要です。

Recall=TPTP+FN\text{Recall} = \frac{TP}{TP + FN}

C. 2つのバランス:F1スコア すべてにトリガーすることで100%の再現率を「ずる」したり、まったくトリガーしないことで100%の精度を「ずる」したりすることが簡単であるため、F1スコアを使用します。これは精度と再現率の調和平均であり、極端な不均衡にペナルティを与える単一の数値を提供します。

F1=2×Precision×RecallPrecision+RecallF1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
🚀混同行列の監査

「モデルアーキテクチャを変更する前に、必ず混同行列を確認してください。多くの場合、問題は「脳」(ニューラルネットワーク)ではなく「燃料」(データ)にあります。行列がNDPが2つの類似した信号を混同していることを示している場合、それはより大きなモデルではなく、より多くの多様な訓練サンプルが必要なサインです。」


信頼度閾値と決定ロジック

Syntiant® NDPはバイナリの「はい」または「いいえ」ロジックで動作しません。代わりに、処理するセンサーデータのすべてのウィンドウに対して、ニューラルエンジンは信頼度スコアを出力します—現在の入力が訓練されたターゲットパターンとどれだけ密接に一致するかを表す確率値(通常0と1の間)。信頼度閾値 *(T)*は、この確率がシステムアクションをトリガーするのに十分高いタイミングを決定するソフトウェアで定義された「ゲート」です。

A. 閾値のメカニズム 閾値は自律NDPとハードウェアシステムの残りの部分の間のフィルターとして機能します。

  • 決定ルール: 出力スコア(S)が条件S ≥ Tを満たす場合にのみ検出が正式に登録されます。

  • ハードウェアトリガー: この条件が満たされた場合にのみ、NDPがホストコントローラーを起動するための物理的な**割り込みリクエスト(IRQ)**ピンを切り替えます。

B. バランスの行為:感度対精度 Tの値を選択することが製品「調整」の最終ステップです。モデル全体を再訓練することなく、デバイスの動作を調整できます。

  • 閾値を下げる(T↓):

    • 効果: 再現率が増加します。デバイスはより「敏感」になり、かすかな信号や遠くの信号を捕捉しやすくなります。
    • トレードオフ: **偽受理率(FAR)**が増加します。デバイスは同じように聞こえるバックグラウンドノイズでより頻繁にトリガーし、バッテリー寿命を低下させる可能性があります。
  • 閾値を上げる(T↑):

    • 効果: 精度が増加します。デバイスがマッチについて非常に「確信」している場合にのみトリガーします。
    • トレードオフ: **偽拒否率(FRR)**が増加します。ユーザーはセンサーの非常に近くで大声でなければ、デバイスが反応しないと感じるかもしれません。

C. 高度な決定ロジック:マッチウィンドウ 単一の「幸運な」ノイズスパイクが誤トリガーを引き起こすのを防ぐために、eFabric™はマッチウィンドウを通じた時間的決定ロジックを許可します。閾値を超えた単一フレームでトリガーするのではなく、持続的な検出を必要とすることができます。

「M-of-N」ロジック: 最後のNフレームのうちMフレームが信頼度閾値を超えた場合にのみトリガーするようにシステムを設定できます。

  • 例: 「過去5つのウィンドウのうち3つ(60%)がガラス破損シグネチャを示している場合にのみアラームをトリガーする。」
💡プロのヒント:ヒステリシス戦略

「高リスク環境では、デュアル閾値アプローチを使用します。高閾値(Thigh = 0.9)を設定して最初の起動をトリガーしますが、システムがアクティブになったら、低い「キープアライブ」閾値(Tlow = 0.6)を使用してイベントを追跡し続けます。これにより、ノイズの多い条件でシステムが「チラつく」のを防ぎます。」